بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی
  • نویسنده یعقوب پوراسد
  • استاد راهنما هوشنگ حسیبی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1390
چکیده

در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده برای تشخیص قلم و نیز سیستم بازیابی کلمات، چندین پایگاه تصویری با استفاده از کامپیوتر ایجاد شدند. پایگاه تصویری اصلی بکار رفته برای ارزیابی، شامل 448 تصویر تمیز و بدون نویز بود که سیستم ارائه شده با دقت بیش از %98 قلم و اندازه قلم آنها را تشخیص داد. همچنین سیستم کلی بازیابی کلمات، با دقت %86 در نرخ بازیابی %82 قادر به بازیابی کلمات از مستندات تصویری بود. این نرخ دقت و بازیابی با ارزیابی سیستم بر روی 200 کلمه فارسی بدست آمده است. همچنین یک پایگاه مستندات تصویری کوچک از مستندات تصویری اسکن شده (شامل 13 مستند تصویری نوشته شده در نرم افزار ms word که به صورت کاملا تمیز و بدون کجی اسکن شده اند) هم برای بررسی امکان پیاده سازی سیستم بر روی تصاویر اسکن شده واقعی ایجاد شد که مشاهده شد که هر دو روش ارائه شده قابل پیاده سازی بر روی تصاویر اسکن شده واقعی هم هستند. علاوه بر پایگاه تصاویر گفته شده، عملکرد سیستم بر روی یک پایگاه تصویری شامل تعدادی تصویر اسکن شده در شرایط غیر ایده آل دارای نویز و کجی هم مورد آزمایش قرار گرفت که نتایج حاصل نشان دهنده ضعف سیستم تشخیص قلم در تشخیص قلم مستندات نویزی و کج می باشد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بازیابی بر اساس محتوای اسناد چاپی فارسی

با افزایش کتابخانه های دیجیتال و برای برای دستیابی به هدف ادارات بدون کاغذ تعداد زیادی از کپی ها به دیجیتال تبدیل شده و در سیستم مدیریت اسناد ذخیره شده است. همچنین در حال حاضر میلیون ها سند دیجیتال دائماً بر روی اینترنت از یک نقطه به نقطه ی دیگر منتقل می شوند. اگر چه تکنولوژی پردازش تصویر اسناد می تواند برای تبدیل اتوماتیک تصاویر دیجیتال این اسناد به فرمت متن قابل خواندن به وسیله کامپیوتر با اس...

15 صفحه اول

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه روش ترکیبی و مفهومی جدید برای بسط پرس و جوی متون در سیستم های بازیابی اطلاعات

در بازیابی اطلاعات متون افزایش دقت بازیابی و کاهش زمان پاسخ امری بسیار مهم می باشد. از جمله مواردی که می توان برای بهبود دقت استفاده کرد، بهبود الگوریتم های بسط پرس و جو می باشد. در بسط پرس و جو با بهبود پرس و جوی کاربر سعی می شود پرس و جوی کاربر را که بصورت غیر ساخت یافته عنوان شده است به پرس و جوی دقیق تر تبدیل کرده و به این ترتیب دقت بازیابی را بالا ببریم. لذا بسط پرس و جو از جمله موارد مهم ...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023